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BESCHREIBUNG 


Sprachdialogsystem 


Die Erfindung betrifft ein Sprachdialogsystem, z. B. ein automatisches Auskunftssystem. 


5 Ein solches Dialogsystem ist aus A. Kellner, B. Riiber, F. Seide und B. H. Tran, "PADIS - 
AN AUTOMATIC TELEPHONE SWITCHBOARD AND DIRECTORY 
INFORMATION SYSTEM", Speech Communication, vol. 23, Seiten 95-111, 1997 
bekannt. Hier werden iiber eine Schnittsteile zu einem Telefonnetz Sprachaufierungen 
eines Benutzers empfangen. Vom Dialogsystem wird als Reaktion auf eine Spracheingabe 

10 eine Systemantwort (Sprachausgabe) generiert, die an den Benutzer iiber die Schnittsteile 
und hier weiterhin iiber das Telefonnetz iibertragen wird. Spracheingaben werden von 
einer auf Hidden Markov Modellen (HMM) basierenden Spracherkennungseinheit in 
einen Wortgraphen umgesetzt, der in komprimierter Form verschiedene Wortfolgen 
angibt, die als Erkennungsergebnis fiir die empfangene Sprachaufierung in Frage kommen. 

15 Der Wortgraph definien feste Wortgrenzen, die durch ein oder mehrere Kanten ver- 

bunden sind. Einer Kante ist jeweils ein Wort und ein von der Spracherkennungseinheit 
ermittelter Wahrscheinlichkeitswert zugeordnet. Die verschiedenen Pfade durch den Wort- 
graphen stellen die moglichen Erkennungsergebnisalternativen dar. In einer Sprachver- 
stehenseinheit werden durch Verarbeitung des Wortgraphen die fiir die Anwendung 

20 relevanten Informationen ermittelt. Hierzu wird eine Grammatik eingesetzt, die 

syntaktische und semantische Regeln umfasst. Die verschiedenen sich aus dem Wort- 
graphen ergebenden moglichen Wortfolgen werden mittels eines die Grammatik ver- 
wendenden Parsers in Konzeptfolgen umgesetzt, wobei ein Konzept sich iiber ein oder 
mehrere Worte des Wortgraphen erstreckt und eine Teilwortfolge (Wortphrase) 

25 zusammenfasst, die entweder eine fiir die jeweilige Anwendung des Dialogsystems relevante 
Information tragt oder im Fall eines sogenannten Filler-Konzeptes eine Teilwortfolge 
reprasentiert, die fiir die jeweilige Anwendung bedeutungslos ist. Die sich so ergebenden 
Konzeptfolgen werden schliefilich in einen Konzeptgraphen umgesetzt, um die moglichen 
Konzeptfolgen in komprimierter und leicht zu verarbeitender Form vorliegen zu haben. 

30 Den Kanten des Konzeptgraphen sind wiederum Wahrscheinlichkeitswerte zugeordnet, die 
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den zugehorigen Wahrscheinlichkeitswerten des Wortgraphen abhangig sind. Aus dem 
optimalen Pfad durch den Konzeptgraphen warden schliefilich die anwendungsrelevanten 
semantischen Informationen, die durch sogenannte Attribute in den semantischen Regeln 
der Grammatik reprasentiert sind, extrahiert. Eine DialogkontroUeinheit wertet die von der 
5 Sprachverstehenseinheit ermittelten Informationen aus und generiert eine geeignete Ant- 
wort an den Benutzer, wobei die DialogkontroUeinheit auf eine Datenbank mit an- 
wendungsspezifischen Daten (hier: fur die Telefonauskunftsanwendung spezifische Daten) 
zugreift. 

10 Derartige Dialogsysteme lassen sich beispielsweise audi fur Bah n aus kunftssyst erne ein- 
)^^\ setzen, wobei lediglich die Grammatik und die anwendungsspezifischen Daten in der 

Datenbank anzupassen sind. Ein derartiges Dialogsystem ist in H. Aust, M. Oerder, F. 
Seide, V. Steinbifi, "A SPOKEN LANGUAGE INQUIRY SYSTEM FOR AUTOMATIC 
TRAIN TIMETABLE INFORMATION", Philips J. Res. 49 (1995), Seiten 399-418 

15 beschrieben. 

Bei einem solchen System wird beispielsweise aus einer Teilwortfolge "um zehn Uhr 
dreiSig" die zugehorige semantische Information "630 Minuten nach Mitternacht" auf 
folgende Weise mittels einer Grammatik abgeleitet, wobei eine syntaktische und eine 
20 semantische Regel wie folgt zur Anwendung kommt: 

^ ^ <Uhrzeit> ::= um <ZahL24> Uhr <ZahL60> (syntaktische Regel) 

<Uhrzeit>.val := 60*<ZahL24>.val + <Zahl_60>.val (semantische Regel) 

25 <ZahL24> steht fiir alle Zahlworter zwischen 0 und 24 lind <ZahL60> fiir alle 

Zahlworter zwischen 0 und 60; die beiden Parameter sind sogenannte Nicht-Terminale 
einer hierarchisch aufgebauten Grammatik. Die zugehorigen semantischen Informationen 
werden durch die Attribute <ZahL24>.val und <ZahL60>.val reprasentiert, denen hier die 
zugehorigen Zahlwerte zur Berechnung der gesuchten Uhrzeit zugeordnet sind. 
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Dieser Ansatz funktioniert sehr gut, wenn die Struktur der informationstragenden 
Formulierungen a priori bekannt ist, also z.B. fiir Uhrzeiten, Daten, Ortsnamen oder 
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Personennamen aus einer festgelegten Namensliste. Er versagt jedoch, wenn Informationen 
freier formuliert werden. Dies kann man sich an folgendem Beispiel verdeutlichen, bei 
dem das Sprach dialogs/stem im Bereich der Kinoauskunft eingesetzt wird: 

5 Der ofFizielle Titel eines James Bond Films aus dem Jahre 1999 hei{?t James Bond - Die 
Welt ist nicht genug". Typische Anfragen zu diesem Film sind »Der neue Bond", „Die 
Welt ist nicht genug" oder „Der letzte Film mit Pierce Brosnan als James Bond". Die 
moglichen Formulierungen sind kaum vorhersehbar und zudem von den aktuell laufenden 
Filmen abhangig, die wochentlich wechseln. Durch feste Regeln in einer Grammatik 

10 konnen nur eine oder wenige dieser Vielzahl von Formulierungen, die als Teilwortfolgen 
Jj^^ in Spracheingaben und in den von der Spracherkennungseinheit des Dialogsystems ge- 

lieferten Erkennungsergebnissen auftreten, identifiziert werden. Dies fiihrt ohne zusatz- 
liche Mafinahmen dazu, dass eine Vielzahl von Formulierungsvarianten, die nicht von der 
verwendeten Grammatik abgedeckt sind, nicht identifiziert und damit auch nicht durch 

15 Zuordnung von semantischen Informationen interpretiert v^erden konnen. 

Der Erfindung liegt die Aufgabe zugrunde, ein Dialogs/stem zu schaffen, das fiir ein 
breites Spektrum an Formulierungsalternativen bei Spracheingaben ein moglichst sicheres 
Identifizieren entsprechender Teilwortfolgen gewahrleistet. 


20 


Die Aufgabe wird durch ein Dialogsystem gemafi Patentanspruch 1 gelost. 


Mit diesem Dialogsystem sind bedeutungstragende Teilwortfolgen eines von der Spracher- 
kennungseinheit gelieferten Erkennungsergebnisses (das insbesondere als Wortgraph oder 

25 durch N beste Wortfolgenhypothesen vorliegt) auch dann mit hoher Sicherheit identi- 

fizierbar, wenn eine Vielzahl von Formulierungsvarianten in Frage kommt, deren syntak- 
tische Strukturen dem Dialogsystem a priori nicht alle bekannt und damit auch nicht von 
der verwendeten Grammatik explizit erfassbar sind. Die Identifizierung einer solchen Teil- 
wortfolge gelingt dadurch, dass eine Bewertung mittels konkurrierender Sprachmodelle (z. 

30 B. Bigramm- oder Trigramm-Sprachmodelle) erfolgt, die auf unterschiedlichen (Text-) 
Korpora trainiert sind. Vorzugsweise wird ein allgemeines und mindestens ein themen- 
spezifisches Sprachmodell verwendet. Ein allgemeines Sprachmodell ist beispielsweise auf 
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einem aus Artikein von Tageszeitungen gebildeten Trainingskorpus trainiert. Beispiele fUr 
themenspezifische Sprachmodelle sind fur die Anwendung Kinoauskunft ein Sprachmodell 
fur Filmtitelinformationen und ein Sprachmodell fur den FilminhaJt betrefifende Informa- 
tionen (z. B, Schauspielernamen), Als Trainingskorpus fiir das Filmtitel-Sprachnnodell 
5 kann die Zusammenstellung der Titel der aktuell laufenden Filme dienen. Als Trainings- 
korpus fiir das Sprachmodell fiir Filminhalte kann man die Zusammenstellung von Kurz- 
beschreibungen dieser Filme verwenden. Weist ein Sprachmodell eine gegeniiber den 
anderen Sprachmodellen hohere thematische Nahe zu einer (frei formulierten) Teilwort- 
folge auf, so wird ein solches Sprachmodell dieser Teilwortfolge eine hohere Wahrschein- 
10 lichkeit zuordnen als die anderen Sprachmodelle, insbesondere als ein allgemeines Sprach- 
Jii^" model! (vgl. Anspruch 2); dies wird zur Identifizierung der Teilwortfolge als bedeutungs- 

tragend ausgenutzt. 

Bei der Erfindung wird der in bisherigen Dialogsystemen durch die Grammatik feste 
15 Zusammenhang zwischen der Identifizierung und Interpretation einer Teilwortfolge 

aufgehoben, Anspruch 3 gibt an, wie den identifizierten Teilwortfolgen semantische In- 
formationen zugeordnet werden konnen. Da die Teilwortfolgen von der Grammatik des 
Dialogs/stems nicht explizit erfasst sind, sind hierzu besondere Mafinahmen zu treffen. 
Hier wird vorgeschlagen, auf Datenbanken mit entsprechendem themenspezifischen 
20 Datenmaterial zuzugreifen. Eine identifizierte Teilwortfolge wird mit den Datenbank- 
eintragen verglichen und der Datenbankeintrag (ggf. mit einer Vielzahl zugeordneter 
Datenfelder) mit der groSten Nahe zur identifizierten Teilwortfolge wird zur Ermittlung 
der semantischen Information der identifizierten Teilwortfolge verwendet, beispielsweise 
durch Zuordnung der Werte eines oder mehrerer der Datenfelder des ausgewahlten 
25 Datenbankeintrags. 

Anspruch 4 beschreibt ein entsprechend ausgestaltetes Verfahren zur Identifikation einer 
bedeutungstragenden Teilwortfolge. 
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Ausfiihrungsbeispiele der Erfindung werden nachstehend anhand der Zeichnungen naher 
erlautert. Es zeigen: 
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Fig, 1 ein Blockschaltbild eines Sprachdialogsystems, 

Fig. 2 einen von einer Spracherkennungseinheit des Sprachdialogsystems gelieferten 

Wortgraphen und 

Fig. 3 einen in einer Sprachverstehenseinheit des Sprachdialogsystems erzeugten 
5 Konzeptgraphen 

Fig.l zeigt ein Sprachdiaiogsystem 1 mit einer Schnittstelle 2, einer Spracherkennungs- 
einheit 3, einer Sprachverstehenesinheit 4, einer DialogkontroUeinheit 5, einer Sprachaus- 
gabeeinheit 6 (mit Text-Sprache-Umsetzung) und einer Datenbank 7 mit anwendungs- 

10 spezifischen Daten, Ober die Schnittstelle 2 warden Spracheingaben eines Benutzers 

empfangen und an die Spracherkennungseinheit 3 weitergeleitet. Die Schnittstelle 2 stellt 
hier (Kinoauskunftssystem) eine Verbindung zu einem Benutzer insbesondere iiber ein 
Telefonnetz her. Die auf Hidden Markov Modellen (HMM) beruhende Spracher- 
kennungseinheit 3 liefert als Erkennungsergebnis einen Wortgraphen (siehe Fig. 2), wobei 

15 im Rahmen der Erfindung aber grundsatzlich auch eine Verarbeitung einer oder mehrerer 
N bester Wortfolgenhypothesen in Betracht kommt. Das Erkennungsergebnis wird von 
der Sprachverstehenseinheit 4 ausgewertet, um die relevanten syntaktischen und 
semantischen Informationen im von der Spracherkennungseinheit 3 gelieferten 
Erkennungsergebnis zu bestimmen. Hierbei verwendet die Sprachverstehenseinheit 4 eine 

20 anwendungsspezifische Grammatik, die gegebenenfalls auch auf in der Datenbank 7 

abgelegte anwendungsspezifische Daten zugreifen kann. Die von der Sprachverstehens- 
einheit 4 bestimmten Informationen werden der DialogkontroUeinheit 5 zugefuhrt, die 
hieraus unter Beriicksichtigung von anwendungsspezifischen Daten, die ebenfalls in der 
Datenbank 7 abgelegt sind, eine Systemantwort bestimmt, die der Sprachausgabeeinheit 6 

25 zugefuhrt wird. Bei der Generierung von Systemantworten verwendet' die DialogkontroU- 
einheit 5 a priori vorgegebene Antwortmuster, deren semantischer Inhalt und Syntax von 
den Informationen abhangt, die von der Sprachverstehenseinheit 4 ermittelt und an die 
DialogkontroUeinheit 5 geiiefert werden. Einzelheiten zu den Komponenten 2 bis 7 lassen 
sich beispielsweise dem eingangs zitierten Aufsatz von A,Kellner, B. Riiber, F. Seide und 

30 B.H. Tran entnehmen. 


Das Sprachdiaiogsystem enthalt weiterhin eine Menge 8 von SprachmodeUen LM-0, LM- 
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1, LM-2, LM-K. Das Sprachmodell LM-0 stellt hierbei ein allgemeines Sprachmodell 
dar, da5s auf einem Trainingstextkorpus mit allgemeinen themenunspezifischen Daten (z. 
B. aus Texten aus Tageszeitungen gebildet) trainiert wurde. Die anderen Sprachmodelle 
LM-1 bis LM'K stellen themenspezifische Sprachmodelle dar, die auf themenspezifischen 
Textkorpora trainiert wurden. Weiterhin enthalt das Sprachdialogsystem 1 eine Menge 9 
von Datenbanken DB-1, DB-2, DB-M, in denen themenspezifische Informationen 
abgelegt sind. Die themenspezifischen Sprachmodelle und die themenspezifischen Daten- 
banken korrespondieren zueinander entsprechend den jeweiligen Themen, wobei eine 
Datenbank mehreren themenspezifischen Sprachmodellen zugeordnet sein kann. Ohne 
Beschrankung der Allgemeinheit wird im folgenden von lediglich zw^ei Sprachmodellen 
LM-0 und LM-1 und von einer dem Sprachmodell LM-1 zugeordneten Datenbank DB-1 
ausgegangen. 

Das erfindungsgemafie Sprachdialogsystem 1 ist zur Identifikation firei formulierter be- 
deutungstragender Teilwortfolgen, die Teil einer Spracheingabe sind und die am Ausgang 
der Spracherkennungseinheit 3 als Teil des von der Spracherkennungseinheit 3 gelieferten 
Erkennungsergebnisses vorliegen, in der Lage. Bedeutungstragende Teilwortfolgen werden 
in Dialogsystemen ublicherweise durch Nicht-Terminale (= Konzeptkomponenten) und 
Konzepte einer Grammatik reprasentiert. 

Die Sprachverstehenseinheit 4 verwendet eine hierarchisch aufgebaute kontext-freie 
Grammatik, von der ein Auszug nachstehend angegeben ist. 

Grammatik- Auszug: 

<w^ollen> ich mochte 
<wollen> ::= ich mochte gerne 

<zahl> ::= zv^ei 

wert := 2 
<zahl> ::= drei 

wert := 3 
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<zahl> ::= vier 

wert := 4 


<tickets> ::= <zahl> Tickets 
5 anzahl :- <zahl>.wert 

<tickets> ::= <zahl> Karten 

anzahl := <zahl>.wert 

<titel_phrase> ::= PHRASE(LM.l) 
10 text := STRING 

)9h- titel := RETRIEVE(DB.1^J 

inhalt := RETRIEVE(DB-li„Hai<) 

<film> ::= <titel_phrase> 
15 titel := <titel_phrase>. titel 

<film> ::= fiir <titel_phrase> 

titel := <titel_phrase>. titel 

<reservieren> ::= reservieren 
20 <reservieren> ::= bestellen 

Jlf^^A <ticket_bestellung> <tickets> <film> <reservieren> 

service := Ticketbestellung 
anzahl := <tickets>. anzahl 
25 titel := <film>. titel 

<ticket_besiellung> ::= <film> <tickets> <reservieren> 
service := Ticketbestellung 
anzahl := <tickets>. anzahl 
titel := <film>. titel 


30 


Das Zeichen »::=" weist auf die Definition eines Konzeptes oder eines Nicht-Terminals 
hin. Das Zeichen „:=" w^ird zur Definition eines eine semantische Information tragenden 
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Attributes fiir ein Konzept oder ein Nicht-Terminal verwendet. Eine solche Grammatik- 
struktur ist grundsatzlich bekannt (siehe den Eingangs genannten Artikel A.Kellner, 
B. Ruber, F. Seide, B.H. Tran). Dabei erfolgt eine Identifizierung bedeutungstragender 
Teilwortfolgen mittels eines Top-Down- Parsers unter Anwendung der Grammatik, um so 
5 einen Konzeptgraphen zu bilden, dessen Kanten jeweils eine bedeutungstragende Teilwort- 
folge reprasentieren. Den Kanten des Konzeptgraphen sind Wahrscheinlichkeitswerte zuge- 
ordnet, die zur Ermittlung des besten (wahrscheinlichsten) Pfades durch den Konzept- 
graphen dienen. Mittels der Grammatik erhalt man die zugehorigen syntaktischen 
und/oder semantischen Informationen fiir diesen Pfad, die als Verarbeitungsergebnis der 
10 Sprachverstehenseinheit 4 an die DialogkontroUeinheit 5 geiiefert werden. 

Fiir die Spracheingabe „Ich mochte gerne zwei Tickets fiir den neuen James Bond Film 
bestellen.", die eine mogliche Wortfolge innerhalb eines von der Spracherkennungseinheit 
3 an die Sprachverstehenseinheit 4 gelieferten Wortgraphen (Fig. 2 zeigt dessen Grund- 
15 struktur) ist, soil die Erfindung erlautert werden: 

Die Teilwortfolge „ Ich mochte gerne" ist durch das Nicht-Terminal <wolien> und die 
Teilwortfolge „zwei Tickets" durch das Nicht-Terminal <tickets> reprasentiert, wobei in 
diesem Nicht-Terminal wiederum das beziiglich des Wortes „zwei" erkannte Nicht- 

20 Terminal <zahl> enthalten ist. Derh Nicht-Terminal <zahl> ist wiederum das Attribut wert 
zugeordnet, dass als semantische Information den entsprechenden Zahlwert beschreibt. 
Dieses Attribut wert wird zur Bestimmung des Attributes anzahl verwendet, dass wiederum 
dem Nicht-Terminal <tickets> als semantische Information den entsprechenden Zahlwert 
zuordnet. Das Wort „bestellen" wird mittels des Nicht-Terminals <reservieren> 

25 identifiziert. 


Zur Identifizierung und Interpretation einer zwischen zwei Knoten (hier zwischen Knoten 
7 und 12) des Wortgraphen liegenden Teilwortfolge wie hier „den neuen James Bond 
Film", die nicht explizit von einem Konzept oder Nicht-Terminal der Grammatik erfassbar 
30 ist, ist die Grammatik gegeniiber bisher verwendeten Grammatiken um einen neuen Typ 
von Nicht-Terminalen erweitert, hier durch das Nicht-Terminal <titeLphrase>. Dieses 
Nicht-Terminal wird wiederum zur Definition des Nicht-Terminals <film> verwendet, das 
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wiederum zur Definition des Konzepts <ticket„bestellung> verwendet wird, Mittels des 
Nicht-Terminals <titeLphrase> werden bedeutungstragende Teilwortfolgen, die einen frei 
formulierten Filmtitel enthalten, identifiziert und mittels der zugehorigen Attribute 
interpretiert. Bei einer freien Formulierung eines Filmtitels sind zahlreiche Formulierungs- 
5 varianten denkbar, die nicht alle vorhersagbar sind. Inri vorliegenden Fall ist der korrekte 
Titel „James Bond - Die Welt ist nicht genug." Die benutzte entsprechende Teilwortfolge 
„den neuen James Bond Film" weicht stark von der korrekten Angabe des Filmtitels ab; sie 
ist nicht explizit von der verwendeten Grammatik erfasst. Trotzdem wird diese 
Teilwortfolge als Titelangabe identifiziert. Dies wird dadurch realisiert, dass eine 

10 Bewertung mittels mehrerer Sprachmodelle erfolgt, die in Fig. 1 mit LM-0 bis LM-K 

bezeichnet sind. Fiir die vorliegende Ausgestaltung des Dialogsystems 1 als Kinoauskunfts- 
system ist das Sprachmodell LM-0 ein allgemeines Sprachmodell, dass auf einem allge- 
meinen themenunspezifischen Textkorpus trainiert vmrde. Das Sprachmodell LM-1 ist ein 
themenspezifisches Sprachmodell, das auf einem themenspezifischen Textkorpus, der hier 

15 die (korrekten) Titel und Kurzbeschreibungen aller aktuell laufenden Filme enthalt, 

trainiert wurde. Alternativ dazu ist, Teilwortfolgen dutch syntaktische Regeln der bisher 
bekannten Art zu erfassen (was fiir eine Wortfolge wie „den neuen James Bond Film" nicht 
gelingt), erfolgt in der Sprachverstehenseinheit 4 eine Bewertung von Teilwortfolgen 
mittels der durch Block 8 zusammengefassten Sprachmodelle, d.h. hier durch das allge- 

20 meine Sprachmodell LM-0 und das filmtitelspezifische Sprachmodell LM-1. Bei der 
Teilwortfolge zwischen den Knoten 7 und 12 liefert das Sprachmodell LM-1 als Be- 
wertungsergebnis eine Wahrscheinlichkeit, die grofier ist als die Wahrscheinlichkeit, die 
das allgemeine Sprachmodell LM-0 als Bewertungsergebnis ausgibt. Auf diese Weise wird 
die Teilwortfolge „den neuen James Bond Film" als Nicht-Terminal <titel_phrase> mit der 

25 variablen Syntax PHRASE(LM-1) identifiziert, Der aus der akustischen Bewertung durch 
die Spracherkennungseinheit 3 resultierende Wahrscheinlichkeitswert fiir die betreffende 
Teilwortfolge und der vom Sprachmodell LM-1 fiir die betreffende Teilwortfolge gelieferte 
Wahrscheinlichkeitswert werden kombiniert (z. B. durch Addieren der "scores"), wobei 
vorzugsweise heuristisch ermittelte Gewichte eingesetzt werden. Der resultierende Wahr- 

30 scheinlichkeitswert wird dem Nicht-Terminal "titel_phrase" zugeordnet. 

Dem Nicht-Terminal <titel_phrase> werden weiterhin durch drei Attribute text, titel und 
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inhalt drei semantische Informationen zugeordnet. Dabei verweist das Attribut text auf die 
identifiziene Wortfolge als solche (STRING). Die semantischen Informationen fur die 
Attribute titel und inhalt werden mit Hilfe einer durch RETRIEVE bezeichneten In- 
fo rmationssuche ermittelt, bei deren Anwendung auf die Datenbank DB-1 zugegrifFen 
5 wird. Die Datenbank DB-1 ist eine themenspezifische Datenbank, in der kinofilm- 
spezifische Daten gespeichert sind. Unter jedem Datenbankeintrag sind in separaten 
Pel dern DB-1 rijd DB-li^-j^ einerseits der jeweilige Fiimtitel (mit der korrekten Be- 
zeichnung) und andererseits fur jeden Fiimtitel eine kurze Erlauterung (hier: "Der neue 
James Bond Film mit Pierce Brosnan als Agent 007") gespeichert. Fiir die Attribute titel 

10 und inhalt wird nun der Datenbankeintrag ermittelt, der der identifizierten Teilwortfolge 
am ahnlichsten ist (in Ausgestaltungen konnen auch mehrere ahnliche Datenbankeintrage 
ermittelt werden), wobei bekannte Suchverfahren eingesetzt werden, z, B. ein Information- 
Retrieval- Verfahren wie in B. Carpenter, J. Chu-Carroll, "Natural Language Call Routing: 
A Robust, Self-Organizing Approach", ICSLP 1998 beschrieben. 1st ein Datenbankeintrag 

15 ermittelt worden, wird aus dem Datenbankeintrag das Feld DB-l^ij^ ausgelesen und dem 
Attribut titel zugewiesen sowie das Feld DB-l^^^^ mit der kurzen Erlauterung zum Film 
ausgelesen und dem Attribut inhalt zugewiesen. 

Schliefilich wird das so bestimmte Nicht-Terminal <titeLphrase> zur Bestimmung des 
20 Nicht-Terminals <film> verwendet. 

Aus den auf die obige Weise identifizierten und interpretierten Nicht-Terminalen wird das 
Konzept <ticket_bestellung> gebildet, dessen Attributen service, anzahl und titel die 
semantischen Inhalte Ticketbestellung, <tickets>.anzalil bzw*<film>.titel zugeordnet 
25 werden. Die Realisierungen des Konzepts <ticket_bestellung> sind Teil des Konzept- 
graphen gemaC Fig. 3. 

Der Wongraph nach Fig. 2 und der Konzeptgraph nach Fig. 3 sind aus Griinden der 
Ubersichtlichkeit sehr vereinfacht dargestellt. In der Praxis weisen die Graphen sehr viel 
30 mehr Kanten auf, was aber in Bezug auf die Erfindung nicht wesentlich ist. Bei den obigen 
Ausfiihrungen wurde davon ausgegangen, dass die Spracherkennungseinheit 3 als Er- 
kennungsergebnis einen Wortgraphen ausgibt. Auch dies ist fiir die Erfindung nicht 
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zwingend. So kommt auch eine Verarbeitung einer Liste N bester Wortfolgen- bzw, 
Satzhypothesen anstelle eines Wortgraphen in Betracht. Auch ist bei frei formulierten 
Teilwortfolgen nicht immer eine Datenbankabfrage zur Ermittlung semantischer Inhalte 
erforderlich. Dies hangt von den jeweiligen Vorgaben fiir das Dialogsystem ab. 
Grundsatzlich sind dutch Aufnahme zusatzlicher Datenbankfelder beliebig viele 
semantische Informationen vorgebbar, die einer Teilwortfolge zuordenbar sind. 
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Die Struktur des Konzeptgraphen gemafi Fig. 3 ist nachstehend noch tabellarisch 
angegeben. Die beiden linken Spalten geben die Konzeptknoten (Grenzen zwischen den 
Konzepten) an. Daneben stehen die Konzepte in spitzen Klammern mit zugeordneten 
etwaigen Attributen plus zugehoriger semantischer Inhalte. Korrespondierende 
5 Teilwortfolgen des Wortgraphen sind in runden Klannmern hinzugefiigt. 



1 

3 

<wollen> 

(ich mochte) 


1 

3 

<FILLER> 

(Spechte) 

10 

1 

4 

<wollen> 

(ich mochte geme) 


1 

4 

<FILLER> 

(Spechte gerne) 


3 

4 

<FILLER> 

(gerne) 


4 

5 

<FILLER> 

(zwei) 


4 

13 

<ticket_besteU 

ung> (zv^ei Tickets fur den neuen James Bond Film 

15 



service 

Ticketbestellung 




anzahl 

2 




titel 

James Bond — Die Welt ist nicht genug. 


4 

13 

<ticket_bestellung> (drei Tickets fiir den neuen James Bond Film 




service 

Ticketbestellung 

20 



anzahl 

3 




titel 

James Bond - Die Welt ist nicht genug. 


4 

13 

<FILLER> 

(zwei Trinkgeld den Jim Beam bestellen) 


5 

7 

<bar> 

(Trinkgeld) 




service 

Trinkgeld 

25 

5 

7 

<FILLER> 

(Trinkgeld) 


7 

8 

<FILLER> 

(den) 


8 

13 

<duty_free> 

(Jim Beam bestellen) 




service 

Besteliung 




getrank 

Jim Beam 

30 

8 

13 

<FILLER> 

(neuen James Beam bestellen) 
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PATENTANSPRtrCHE 


1. Sprachdialogsystem (1) mit einer Sprachverstehenseinheit (4), bei der zur Identifizierung 
einer bedeutungstragenden Teilwortfolge aus einem von einer Spracherkennungseinheit (3) 
gelieferten Erkennungsergebnis, das fiir eine dem Sprachdialogsystem (1) zugefiihrte 
Wortfolge ermittelt wurde, eine Bewertung der Teilwortfolge mittels unterschiedlicher 

5 Sprach model le (8) vorgesehen ist. 

2. Sprachdialogsystem nach Anspruch 1, 
dadurch gekennzeichnet , 

dass zur Bewertung der Teilwortfolge ein allgemeines Sprachmodell (LM-0) und 
10 mindestens ein themenspezifisches Sprachmodell (LM-1, LM-K) vorgesehen sind. 

3. Sprachdialogsystem nach Anspruch 2, 
dadurch gekennzeichnet , 

dass die Menge unterschiedlicher Sprachmodelle (8) mindestens ein themenspezifisches 
15 Sprachmodell (LM-1, LM-K) enthalt, dem eine Datenbank (DB-1, DB-M) mit 
V entsprechendem themenspezifischen Datenmaterial zugeordnet ist, das zur Ermittlung der 

in der Teilwortfolge enthaltenen semantischen Information dient, 

4. Verfahren zur Extraktion einer bedeutungstragenden Teilwortfolge aus einem von einer 
20 Spracherkennungseinheit (3) eines Sprachdialogsystems (1) gelieferten 

Erkennungsergebnis, bei dem eine Bewertung der Teilwortfolge mit unterschiedlichen 
Sprachmodellen (8) in einer Sprachverstehenseinheit (4) des Sprachdialogsystems (1) 
vorgesehen ist. 
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LM-0 




LM-1 




LM-2 


• 


LM-K 




8 
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ZUSAMMENFASSUNG 
Sprachdialogsystem 

Die Erfindung betrifft ein Sprachdialogsystem (1). Urn fur ein breites Spektrum an 
Formulierungsalternativen bei Spracheingaben ein moglichst sicheres Identifizieren 
5 bedeutungstragender Teilwortfolgen zu gewahrleisten, enthalt das Sprachdialogsystenn eine 
Sprachverstehenseinheit (4), bei der zur Identifizierung einer bedeutungstragenden 
Teilwortfolge aus einem von einer Spracherkennungseinheit (3) gelieferten 
Erkennungsergebnis, das fur eine dem Sprachdialogsystem (1) zugefuhrte Wortfolge 
ermittelt wurde, eine Bewertung der Teilwortfolge mittels unterschiedlicher Sprachmodelle 
10 (8) vorgesehen ist. 

Fig. 1 
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LM-0 




LM-1 




LM-2 


• 
• 


LM-K 




7 
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